在这个数字时代,几乎在每个学科中,人们都在使用自动化系统,这些系统以不同的自然语言以文档格式表示信息。结果,人们对找到,组织和分析这些文件的更好解决方案越来越兴趣。在本文中,我们提出了一个系统,该系统将使用神经词嵌入的百科全书知识(EK)群簇。 EK启用相关概念和神经词嵌入的表示,使我们能够处理相关性的上下文。在聚类过程中,所有文本文档都通过预处理阶段。通过使用EK和Word Embedding模型映射,从每个文档中提取了丰富的文本文档功能。生成了富集特征的TF-IDF加权载体。最后,使用流行的球形K-均值算法聚类文本文档。提出的系统通过Amharic文本语料库和Amharic Wikipedia数据进行了测试。测试结果表明,将EK与单词嵌入文档聚类的使用可提高仅使用EK的平均准确性。此外,改变班级的大小对准确性有重大影响。
translated by 谷歌翻译